如何选择梯度下降法中的学习速率α(Gradient Descent Learning Rate Alpha)
梯度下降算法的任务是寻找参数θ,使之能够最小化损失函数。 那么梯度下降法中的学习速率α应该如何选择呢?通常我们画出损失函数随迭代次数增加而变化的曲线。 可能会得到如下的一条曲线,x轴表 ...
梯度下降算法的任务是寻找参数θ,使之能够最小化损失函数。 那么梯度下降法中的学习速率α应该如何选择呢?通常我们画出损失函数随迭代次数增加而变化的曲线。 可能会得到如下的一条曲线,x轴表 ...